EMNLP 2025 接收!把“猜-思-答”三步走做成大模型训练新范式 大模型的后训练阶段,很多人都纠结一个问题:到底是用监督微调(SFT),还是强化学习(RL)?SFT 简单高效,但能力上限不高;RL 能力强,但训练又慢又不稳。尤其是在文本分类这个场景,RL 表现一直不如人意。 训练 模型 gta 范式 emnlp 2025-09-23 14:51 8